FP4 / FP8(低精度浮点)
4 位 / 8 位低精度浮点数据类型。以损失少量精度换取数倍算力和能效,是当代 AI 芯片"账面算力"暴涨的关键。NVIDIA Blackwell 引入 FP4 把账面算力较 H100 提升 25 倍。
是什么
传统深度学习训练用 FP32(32 位浮点),后来逐步演进到 FP16 / BF16 → FP8 → FP4。位数越低,每秒能算的乘加越多(同样硅面积下),但单次计算精度也越低。
- FP8 — 8 位浮点,训练和推理都广泛适用
- FP4 — 4 位浮点,主要用于推理;少数训练场景也开始尝试
为什么关键
- Blackwell 把账面算力做高的关键 — B200 FP4 算力达 20 PFLOPS,是 H100 的 25 倍(据2-01)
- 推理场景对精度要求低 — 大模型 token 生成场景下,FP4/FP8 与 FP16 的输出质量差距小到可接受,但算力账面成倍提升
- 从"峰值算力优先"转向"吞吐量/能效比/延迟优先" — 推理需求 2026 年起超越训练,低精度成为芯片设计核心维度(据2-01)
- NVIDIA / AMD / 国产芯片都在追赶 FP8 推理算力 — 是衡量当代 AI 芯片代际差距的关键指标
- 结合 HBM 与 NVLink — 低精度让单卡能装更大模型 + 跑得更快,配合大带宽内存与高速互联,决定大模型推理 TCO
演进路线
| 精度 | 位数 | 典型场景 | 量产 |
|---|---|---|---|
| FP32 | 32 | 早期训练 | 2010s |
| FP16 / BF16 | 16 | 训练 + 推理 | 2018 起 |
| FP8 | 8 | 训练 + 推理(Blackwell 等) | 2022 起 |
| FP4 | 4 | 推理为主,少数训练 | 2024 起(Blackwell) |
关键玩家
- NVIDIA — Blackwell 引入硬件 FP4,第二代 Transformer Engine
- AMD — MI300X / MI350 / MI450 跟进 FP8/FP4
- 云厂商 ASIC — Google TPU、AWS Trainium、Microsoft Maia 都在追 FP8/FP4 算力
关联
- ∈ belongs_to::2-01-核心逻辑芯片
- 与 Blackwell 强绑定 — 是该架构标志性能力之一